JSAI2026 物体検出と空間関係知識を統合した詳細なシーングラフ構築手法の提案
ロボットの自立行動プロセス
認識 → 判断 → 制御
認識 → 判断
センシング結果を情報に変換する必要がある
画像内の物体(ノード)とそれらの位置関係(エッジ)を表現する
既存手法
EGTR
Transformerベース
OvSGTR、PGSG
VLMベース
提案
空間関係ネットワークの構築
グラフ化
物体検出
gpt-4oで物体名をオープンボキャブラリで列挙
ネットワーク探索
最短トリプレットの発見
課題
不自然な関係を選んでしまうことあり
onを選ぶべきところ、aboveになってしまうなど
クリームの上に葉っぱがあることを検出できず
「葉っぱ」は木の枝に付いているというはずだという固定観念の影響?
「ミント」だったらいけたかもしれない